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® Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dbkumenten mittels Suchmaschine 
.(§) Die Erfmdung beziehr sich auf eln Verfahren zur Rele- 
vanzbewertung bei der Indexierung von Hypertext-Doku- 

menten mittels Suchmaschine, welches in drei Phasen 

ablauft. In der Aufbau phase fiefert das Robotersystem Hy- 

pertext-Dokumente an den Indexserver. Der Indexserver 

analysiert den Inhalt der Dokumente nach drei unter- 

schiediichen Gesichtspunkten. In der Aktualisierungsphe- 

se werden Dokumente, deren Inhaite sich seit dem letzten 

Besuch verendert haben, zunachst aus dem Dokumenten- 

index entfernt. Die betreffenden TermeintrSge werden ak- 

tualisiert. Sofern das veranderte Dokument weiterhin ver- 

fugbar ist, wird entsprechend den Arbeitsschritten der 

Aufbau phase in den Index eingefugt. In der Anfragephase 

werden in Abhangigkeft vom verwendeten Anfragetyp 

{einfache Anfrage, komplexe Anfrage, Boolsche Anfrage 

oder Phrasenanfrage) aus dem Index die Dokumente er- 

mittelt die auf die Anfrage zutreffen. Fur jedes gefundene 
" Dokument wird der eigentliche Relevanzwert aus den vor- 
J ausberechneten Relevanzwertanteilen, der zum Anfrage- 

zeitpunkt vorliegenden Anzahl an Verweisen auf das Do- 

fkument und der Gesemtanzahl der Dokumente im Index 
zum Relevanzwert des Dokuments verrechnt. 
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Beschreibung 

[0001] Konventionelle Suchmaschinen arbeiien in der Re- 
gel auf dem Prinzip der Valllcxtindexierung. Bei der Voll- 
textindexierung wird pro Dokumenl die HSungkeitsvertei- 
lung von Begriffen des Dokumenis oder eines Teils des Do- 
kumenis in cinem invertierten Index erfassL Dieser Index 
wird benutzt, urn zum Anfragczeitpunkt die Dokumente zu 
besu'mmen, in denen die gesuchten Begriffe auftreten. Des 
weiteren wird an Hand einer systemspezifischen Relevanz- 
bewenungsfunkiion fiir jedes Dokument ein Relevanzwen 
ermittelt. Auf der Basis der Relevanzwerte werden die Er- 
gebnisdokumente anschlieBend sortiert ausgegeben. 
[0002] Wesentlich hierbei ist die Tatsache, dass zur Be- 
wertung nur die Begriffe berangezogen werden, die aucb im 
Dokument auftreten. 

(0003] Bei der Relevanzwertberechnung kdnnen be- 
sttmmte Elemenie des Dokuments starker gewichtet werden 
als der normale Textinhalt Hierzu zdhlen: 

- Meta-Informationen, insbesondere werden Inhalts- 
beschreibende Stichworte ausgewertel 

- Utel und Oberschriften 

- Die ersten Zeiten eines Dokuments 

- Anzahl der Verweise auf das Dokument 

- Ankertexle von Verweisen auf andere 1>>kumenie 

- Absiand zwischen Begriffen 

- Phrasen 

[0004] Die Rrmittlung des Relevanzwertes erfolgr auf der 
Basis der relativen HSufigkeiten der Begriffe mil Hilfe von 
Informations-theoretischen Methoden. Kurze Dokumente, 
in denen die gesuchten Begriffe haufig auftreten, werden als 
relevanter bzgi. der angefragten Begriffe bewertet als lan- 
gere Dokumente oder Dokumente, in denen die gesuchten 
Begriffe seltener auftreten. Enisprechend der informations- 
theoretischen Betrachtungsweise werden seltene Begriffe - 
bezogen auf den gesamten Dokumentenbestand - starker 
gewichtet als Begriffe, die im gesamten Dokumentenbe- 
stand h&ufigcr auftreten. 

[0005] Verbunden mit diesem Ansatz sind folgende Pro- 
blemc: 

- Rcinc Volltcxtindcxicrung wurdc fiir klcinc, kontrol- 
lierte Dokumentenmengen konzipiert, die nicht not- 
wendigerweise als verknupfter Hypertext ausgelegt 
sind. Eine Obernahnie der Volllexlindexierung fiir Hy- 
pertexte (wie z. B. das World-Wide-Web (WWW) oder 
Web-basierte Intranels) nutzt die in den - in Hypertex- 
ten verwendeten - Verweisen kodierte Infonnation 
nicht aus. 

- Es konnen lediglich Begriffe gesuchi werden, die in 
den Dokumenten selbcr auftreten, bzw fiir die mil 
Hilfe eines Thesaurus synonyme Begriffe bestimmi 
werden konnen, die in den Dokumenten auftreten. 

Das Vorkommen von Begriffen einer Anfrage in ei- 
nem Dokument sagt in der Regel wenig bzgl. der Rele- 
vanz des Dokumenis bezogen auf die Anfrage aus, da 
die Bedeutung der Begriffe nicht erfasst wird und da- 
mi t auch keine Aussagen uber die Bedeutung des ge- 
samten Dokuments moglich sind. Um dieses Defizit 
auszugleichen, wurden Ansalze entwickeli, bei denen 
die Dokumentautorcn die Bedeutung des Dokuments in 
Form von Meta-Beschrcibungen annotiercn und bei de- 
nen das Vorkommen der gesuchien Begriffe in den 
Meia-Beschreibungen starker gewichtet wird und so zu 
einern hohcren Relevanzwen filhrt. 

- Der Dokumenten aulor wird nicht alle moglichcn Be- 
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deutungen des Dokuments erfassen und somit wird das 
Dokument nur fur die vom Dokumenlenautor erfassten 
Bedeutungen als relevanter bctxachtet werden als an- 
dere Dokumente. 
5 - Dutch die hoherc Gewichtung der Meta-Beschrei- 
bungen ist die Relevanzbewertung bei unkontrollierten 
Dokumentenmengen offen fur Manipulationen - als 
Spamming bezeichnet da die Dokumentenautoren 
willkurtiche Begriffe in den Meta-Beschreibungen ver- 
10 wenden konnen. 

[0006] Ein bekanntes Verfahren zur Relevanzbewertung 
bei der Indexierung von Texten basiert auf dem Lycos Sy- 
stem. Bei dieser L&sung, die einer der ersten kommerziellen 
t5 Suchmaschinen des WWW zugrunde liegi, wurden neben 
einer eingeschrankten Volltextindexierung, die lediglich die 
bundert "wichugsten" Begriffe des Dokuments indexierte, 
zwei neue Konzepte eingefUhrt. Erstens. wurden Begriffe 
die in speziell ausgezeichneten Dokumentteilen auftrafen 
20 (wie z. B. Titel. "Oberschriften, den ersten 20 Zeilen des Do- 
kuments) bei der Relevanzbewertung starker gewichtet als 
bei ihrem Auftreten in anderen Bestandteilen des Doku- 
ments. Zweitens, floss in die Relevanzbewertung eines Do- 
kuments bzgl. der Suchanfrage zum erste Mai eine Informa- 
25 lion Uber die "Dokumentenumgebung" in Form der "Anzahl 
der externen Verweise auf das Dokument" - als Popularity 
bezeichnet - mit ein, so dass Ergebnisdokumente, auf die 
sehr oft von anderen Dokumenten aus verwiesen wird, als 
"relevanter" betrachtet werden als Dokumente, auf die selte- 
30 ner verwiesen wird (Mauldin 97). 

[00071 Die "Anzahl der externen Verweise auf ein Doku- 
ment" kann als eine Form eines "citation index" betrachtet 
werden, mit dem zwar in einigen Fallen die Qualitaldes Su- 
chergebnisses verbessert werden kann, welches aber nicht in 
35 alien Fallen funktioniert. So werden beispielsweise bei einer 
Suche mit Lycos nach den Begriffen "Deutsche Telekom" 
altere Presseveroffentlichungen als "poputarer" betrachtet 
als die Homepage der Deulschcn Telekom, auf die mil gro- 
6er Wahrscheinlichkeit weitaus 6fter verwiesen werden 
40 dlirftc. Insofcm crschcint die vcrttffcntlichtc Aussagc uber 
die BerUcksichtigung der Popularitat als fragwDrdig. 
[0008] Dariiber hinaus werden hierdurch Meta-Beschrei- 
bungen des Inhalts nur im Rahmen der Methoden der einge- 
sctztcn eingeschrankten Volltcxtindcxicrung bcriicksichiigU 
45 [0009] Bekannt ist weiterhin ein mit Rankdex bezeichne- 
tes Verfahren. Mit Rankdex wurde eine erste experimentelle 
Implementierung (hilp://ninkdex .gari.com/) einer neuen Re- 
levanzbewertungsfunkuon veroffentlichi, welche auf dem 
Prinzip des "Hyper Vektor Votings" (HW) basiert (Li 98). 
50 Bei dieser Bewertungsmethode werden sowohl die Popula- 
ritat als auch die "Texle - als Ankertexle bezeichnet die in 
externen Verweisen auf ein Dokumenl verwendet werden" 
berucksichtigt, so dass "Dokumente, auf die haufig mil den 
gesuchien Begriffen verwiesen wird" als relevanicr betrach- 
55 tct werden als "Dokumente, auf die seltener mit den gesuch- 
ten Begriffen verwiesen wird". Der Inhalt der Dokumente 
wird bei dieser Methode - bis auf die Ankertexte nicht be- 
rucksichtigt. 

[0010J Diesem Verfahren liegt die Beobachtung zu 
60 Grunde, dass Dokumentautoren, die auf ein anderes Doku- 
ment verweisen, den Verweis in den meisten Fallen mit ei- 
ner kurzen und sehr pragnanien Beschreibung vcrsehen, die 
den Inhalt des Dokuments, auf das verwiesen wird. sehr gut 
beschreibt, so dass der verwendele Ankertext als Meta-Be- 
65 schreibung betrachtet werden kann. Wird beispielsweise ein 
Verweis mit den Begriffen "Deutsche Telekom" versehen, 
so wird man durch den Verweis in den meisten Fallen auf die 
Homepage der Deutscben Telekom verwiesen werden. 
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[0011] Die Meta-Bcschreibungen der Ankertexie werdcn 
in der Regel von einer Vielzahl von Autoren erzeugi, wobei 
diese durchaus auch alternative Begriffe in den Ankertexien 
verwenden werden. So ist es beispielsweisc mdglich, dass 
auf die "Homepage" der Deutschen Telekom im WWW 5 
auch mit den Ankertexien "Homepage der Deutschen Tele- 
kom", "Deutsche Telekom AG", "Telekom", "German Tele- 
kom" etc. verwicsen wird. All diese Ankertexie konnen als 
alternative Meta-Beschreibungen beirachiei werden. 
[0012] Die Gefahr des Spammings ist zwar auch bei die- "> 
sem Ansatz gegeben. da prinzipiell ein Dokumeniautor 
durch die gezielte Verwendung von bestimmien Ankertex- 
ien die Relevanzbewertungsfunktion manipulieren kann. 
Dennoch ist der Einfluss dieser Form des Spammings auf 
die Relevanzbewertungsfunktion' jedoch vergleichsweise 15 
gering, da sie durch die Anzahl und Art der Ankertexte, die 
von anderen Autoren verwendel werden, nivelliert wird. 
(0013] Mit dieser Form der Relevanzbewertung ist es dar- 
Ober hinaus inoglich, auch Dokumente zu flnden, in denen 
die Suchbegrifife selber nicht auftretcn. die aber mil den 20 
SuchbcgrifTen beschrieben werden konnen. Des Weiteren 
kBnnen auch Dokumente in anderen Sprachen gefunden 
werden, bzw. Dateien mit nicht- textuellem Inhalt, wie z, B. 
Bild-, Audio-, Video-, oder Archivdateien oder ausflihrbare 
Programme. 25 
I0014J Der Rankdex Ansatz isl jedoch dadurch be- 
schrfinkt, dass er den eigenUichen Inhalt der Dokumente 
nicht berilcksichugt 

(0015] Bei Rankdex handelt es sich um cine experimen- 
iclic Implementierung einer Suchmaschine, die auf HVV 30 
basiert. Zu Testzwecken wurden bei diesem Experiment 
19975.3 Millionen Intemetseiten gesammeli und ein Index 
von rund 100 MB aufgebaut. Durch einen Vergleich mit an- 
deren Suchrnaschinen konnte nicht nur die Quatilai der Er- 
gebnisse unter Beweis gestellt werden, es konnten ebenfalls 35 
die \fcrteile und die der bereits oben beschriebenc Nachteil 
identiftnert werden. Rankdex konnte bisher nicht inspiziert 
oder getestet werden, da die publizierte URL http://rank- 
dex.gari.com/ bisher nicht zugreifbar war, 
|0016] Mit dem Ansatz von Google (Bryn & Page, 98) 40 
wurdc cine Methode vorgestellL, mit der die Nachteile reiner 
Volllextindexierung, der alleinigen Beurteilung der Popula- 
rity und der Ankertexte behoben wurden. 
[0017] Der mit Google vorgcstcUic Ansatz bcruhi darauf, 
dass alle zu verarbeitenden Dokumente aus dem WWW ge- 45 
laden und lokal gespeichert werden. Aus diesen Dokumen- 
len wird die topologische Verweissiruklur extrahierl und 
ebenfalls gespeichert Mit einer Bewertungsfunktion wird 
der "sogenannte PageRank" mil Hilfe eines in mebreren 
Durchlfiufen konvergierenden. ilerativen Algorithmus be- » 
rechnet. Der PageRank eines Dokuments errechnet sich aus 
den PageRanks "aller Dokumente, die auf das Dokument 
verweisen" und betrachtel lediglich die topologische Ver- 
weisstruktur und nicht den Inhalt der Dokumente. Da eine 
RUckwartsvcrfolgung von Verweisen im WWW nicht mog- 55 
lich isl, kommt dieser AnsaU nichl umhin, alle Dokumente 
resp. einen Grofiteil - zunachst zu laden und die topologi- 
sche Vferweisstruktur lokal zu spcichem, bevor mit der Be- 
rechnung des PageRanks begonnen werden kann. 
(0018] Bedingt durch die lokale Speicherung der Doku- 60 
mente und der topologischen Verweisstruktur wird viel 
Speicherplatz benotigt. 

(0019] Die Berechnung des PageRanks erfolgt dann selber 
in einem StUck, so dass der verwendete Algorithmus als 
"kompilicrend" bezeichnei werden kann. (Bryn & Page 98) 65 
schrciben "a PageRank of 26 million web pages can be com- 
puted in a few hours". Zusammen mil cineni anderen Pn> 
zess - als Sorter bezeichnet der rund 24 Stunden fiir die 



Sortierung dieser Datenmenge bencHigt, benotigt der Aktua- 
lisierungsprozess von 26 Mio. Dokumente des Indexes dem- 
nach weit mehr als 24 Stunden. Wie dies zu der zuletzl ge- 
schatzten Indcxgrofie von rund 190 Mio. Dokumenten ska- 
liert, und ob dies weiter opumicrl wurde, isl unbekannt. 
(0020) Zwar terminiert die Berechnung des PageRanks 
bei den Dokumenten. auf die von keinem anderen Doku- 
ment aus verwicsen wird, so dass dcren PageRank prinzi- 
piell als konstant betrachtel werden kdnnte. Das garantien 
aber nicht, dass nicht irgendwann doch auf die Dokumente 
verwiesen wird, so dass die Berechnung des PageRanks bei 
einer Aktualisierung auch fur diese Dokumente irnmer von 
Neuem erfolgen muss. 

(0021] Bedingt durch den kompiherenden Ansatz bei der 
PageRank Berechnung kann eine Aktualisierung des Inde- 
xes nur in zeitlich groBeren Abstanden erfolgen. 

[0022) In die eigentliche Berechnung des Relevanzwerts 
der Suchergebnisse flieBen neben dem PageRank und den 
StandardmaBen des Information Retrievals weitere Infonna- 
tionen ein, wie z. B. das \brkommen der Suchbegriflfe im 
Titel, in Ankertexien, URLs oder speziell ausgezeichneten 
'iextteilen und - bei Mehrwortanfragen - die Nahe zwischen 
den Vbrkommen der einzelnen Begriflfe. Wie diese Informa- 
tioncn miteinander verknupft werden, ist nicht bekannt, 

(0023) Bei Google handelt es sich um eine Internetsucb- 
maschine, die aus einem Projeki der Stanford Universily 
bervorging, welches 1998 in der Griindung der Firma Goo- 
gle, Inc. mUndete. Aus der Zeit vor der firmengrundung 
sind detailliertere und publizierte Informaiionen Ober Goo- 
gle bekannL 

(0024] Bei Google werden wie bei Rankdex Ankertexte 
gesondert bewertet. Hierbei liegt der Unterschied der Vcr- 
fahren. neben der gesonderten Bewertung anderer Textkom- 
ponenten, in der Bewertungsfunktion. Zwar wurde fur (joo- 
gle diese Bewertungsfunktion nicht im Detail veroffentlicht, 
dennoch ist bekannt, dass sie neben dem Dokumentinhalt 
auch die Positioned der gesuchten Begriffe im Dokument, 
Formatieningsinformationen, Ankertexie und den Page- 
Rank des Dokuments miteinander kombiniert. 
(0025] Der PageRank cincs Dokuments ist ein globalcr 
Wert, der unabhangig vom Inhalt allein aus der topologi- 
schen Struktur des WWWs bestirnmt wird und als "ZiUe- 
rungsgrad" interpretiert werden kann. Vereinfacht gespro- 
chen crhaltcn Dokumente, auf die von "wichtigen" Doku- 
menten verwiesen wird, einen hdheren PageRank als Doku- 
mente, auf die von "unwichtigen" Dokumenten verwiesen 
wird. Je ofier auf ein Dokument verwiesen wird, deslo 
"wichtiger" wird es eingestufL 

(0026] Der PageRank kann allein aus der topologischen 
Struktur, der Anzahl der Verweise und dem PageRank ande- 
rer Dokumente besiinunl werden. Zur Berechnung des Pa- 
geRank eines Dokuments wird der PageRank aller Doku- 
mente verwendet, die auf das Dokument verweisen, Zur 
korrekten Berechnung des rekursiv definierten PageRanks 
eines Dokuments muss somit der PageRank der auf sie ver- 
weisenden Dokumente bekannl sein. 
[0027] Hieraus ergibt sich konsequenterweise der Schluss. 
dass bei einer Anderung des PageRanks eines Dokumenis 
nicht nur dessen PageRank aktualisiert werden muss, son- 
dern auch der PageRank aller von diesem Dokument aus cr- 
reichbaren Dokumente. Im schlimmsten Fall muss bei der 
Anderung eines Dokuments der PageRank aller Dokumente 
des Index neu bcrechnet werden. 

[0028] Fiir Google wurde nicht beschrieben, wie die Be- 
wertungsfunktion die einzelnen beweneien Informaiionen 
kombiniert Insofcrn ist auch unklar, wie Informaiionen aus 
dem Ankertexien mil dem PageRank kombiniert werden. 
Den Publikattonen Uber Google kann entnommen werden, 
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dass einc Anderung von Dokumenien zwar permanent in 
den Index aufgenominen wird, die Berechnung des Page- 
Ranks und die Sortienmg des Index jedoch in einer Stapel- 
verarbeilung (Batch-Lauf) erfolgt, die allein filr die parallele 
Sortierung von 24 Mio. Dokumcnien auf vier Rechnern rund 5 
24 Stunden benStigt Hieraus ergibt sich die Folgerung, dass 
ein Index-Update als Siapclvcrarbeiuing durchgefUhri wird, 
und somit IndcxaktuaUsierungen nur in zeitlich grbBeren 
Abslfindcn erfolgen. 

[0029] Die Erfindung ist auf ein Relevanzbewertungsver- to 
fahren ausgerichtet dass einc bessere und aktuellere Indc- 
xterung von Hypertexi-Dokumenten ermdglicht 
[0030] Orundlage des erfindungsgcra&Ben Verfahrens ist 
eine Suctonaschine, die nachfolgend mil ,, ^eleFlnde^ ,, be- 
zeicbnet wird. 15 
[0031] Die Suchmaschine TeleRndcr besteht so wie die 
meisten bekannten Suchmaschinen, im Wesentlichen aus 
zwei Komponenten, einem Robotersystem inklusive Daten- 
bank und einem Indexserver inklusive BenutzeroberflSche. 
[0032] Das Robotersystem lSdt ausgehend von Startadres- 20 
sen Dokumente, durchsucht sie auf bisher unbekannte Do- 
kumeniadressen und tibergibt die Dokuraente dem Indexser- 
ver. Ausgehend von den neuen. unbekannten Adressen wer- 
den die korrespondierenden Dokuniente geladen und der 
Zyklus erneut durchlaufen, bis alle erreichbaren Dokumente 25 
verarbeitei wurden. 

[00331 Der Indexserver anaiysiert den Inhalt der Doku- 
mente und baut einen invertienen Index auf, welcher fiir die 
Anfragebearbcitung benutzt wird Wie bei jeder anderen 
Suchmaschine auch, wird die Qualitat der Suchergebnisse 30 
durch die Inhalte der Dokumente, die Berticksichtigung aus- 
gewShlter Struktureiemente und insbesondere auch durch 
die verwendete Berechnungsfunklion bestirnnu. 
[0034] Das ernndungsgemSBe Relevanzbewertungsver- 
fahren fur den Indexierungsvorgang des TeleFinders basieit 35 
auf der Grundidee die aus dem "Hyper Vector Voting" 
(HVV) bekannle Verfahrensweise der Ermittlung des Rele- 
vanzwertes eines Dokumentes anhand der Ankertcxte von 
Vcrweisen, die auf das Dokument verweisen, milder aus der 
konvcntioncllcn Volltcxtindcxicrung bekannten Verfahrens- 40 
weise, die auf der Indexierung von Suehbegriffen aus dem 
eigentlichen Dokument basiert, zu kombinierea Das erfin- 
dungsgem&Se Verfahren bewirkt eine neue Qualitfii bei der 
Suchc nach rclcvantcn Dokumcnien, da cs die posi liven Ei- 
genschaften des Hyper Vector Voting Verfahrens mit den po- 45 
sitiven Eigenschaften des Verfahrens der konventionellen 
VolllexUndexierung in einem neuen Verfahren vereinigt 
[0035] Gegeniiber herkommlicher Volltextindexierung 
flieBcn durch die besondere Beriicksichtigung und Gewich- 
tung von Ankertexten (der Texte, mit denen die Verweise » 
auf ein Dokument versehen werden) in die Gesamlbewer- 
tung auch Inhaltsbeschreibungen ein, die von anderen Do- 
kumentenautoren ersielll wurden. Die Ankertexie, die meist 
sehr pragnam und prazise den Inhalt des referenzierten Do- 
kuments beschrciben, bilden so einc Form von Mela-Be- 55 
schreibung, die bei der Bewenung berUcksichiigi wird. 
[0036] Zur Relevanzbewcrlung benutzt der TeleRnder ein 
Relevanzbcwertungsverfahren, welches durch Gewichtung 
unterschiedlichcr Anleilc der Funktion parametrisieri wer- 
den kann. Unterschiediich gewichtel werden kann so der 60 
EinfluB der folgenden Dokumentcnbestandteile auf den Gc- 
samtrclevanzwert: 

- Titel 

- Uberschriften unierschiedlichcr Gliederungscbenen 65 

- Phrasen 

- Phrasen in Ankertexten 

- Texte in Verweisen auf das Dokument 
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- Texte in Verweisen innerhalb des Dokuments 

- Dokumentadrcssen 

|0037] Durch unterschiedliche Gewichtung dieser Ele- 
mentc ist die Relevanzbewertungsfunktion selber konfigu- 
rierbar. 

(0038] Das erfindungsgema8c Relevanzbewertungsver- 
fahren laufi in drei Phasen ab. Die drei Phasen mOsseh dabei 
nichi notwendigerweise sequentiel) ablaufen. 
[0039] In der erslen Phase, die mil Aufbauphase bezeich- 
nei wird, liefen das Robotersystem Hypertext-Dokuinenle 
an den Indexserver. Der Indexserver anaiysiert den Inhalt 
der Dokumente nach drei unterschiedlichen Gesichtspunk- 
ten: 

1 . Werden Verweise in dem Dokument identifiziert, so 
wird fur jede aus diesen Verweisen bestimmbare 
Adresse ein neuer Dokumenteneintrag im Index ange- 
legt, sofern ein soJcher noch nicht existiert Ansonsien 
wird der Dokumenteneintrag entsprechend. aktualisiert. 
Fiir die in den Verweisen verwendeten Begrifleder An- 
kertexie werden neue Termeintrage im Index angelegt, 
sofern diese noch nicht exisderen. Ansonsien werden 
die entsprechenden Termeintrage aktualisiert. Fur je- 
den Begriff des Ankertextes wird entsprechend einer 
Gewichtung ein partieller Relevanzwert vorausberech- 
net. 

2. Werden spezicll markierte Textinhalte (z. B durch 
die HTML Auszeichnungen Titel, HI, H2 oder H3 
markiert.) in dem Dokument irientinziert, wird fur jeden 
BegrirT, der in diesen markierten Textinhalten verwen- 
del wird, ein neuer Termeimrag im Index angelegt, so- 
fern dieser noch nicht exisliert Ansonsien werden die 
entsprechenden Termeintrage aktualisiert Fiir jeden 
identifizienen Begriff wird entsprechend der Gewich- 
tung der Markicrung ein partieller Relevanzwert vor- 
ausberechnet 

3. Fur jeden anderen nicht- markierten Tex tinhalt wird 
ein neuer Termeintrag im Index angelegt, sofern dieser 
noch nicht exist icrt. Ansonsien wird der cntsprcchcndc 
Termeimrag aktualisiert. Fiir jeden dieser Begriffe wird 
ein partieller Relevanzwert vorausberechnet 

[0040] In der zweiten Phase, die als Aktualisicrungsphasc 
bezeichnet wird, werden Dokumente deren Inhalte sich seit 
dem letzten Besuch verandert haben. zunachst aus dem Do- 
kumentenindex enifernt. Die beireffenden Tenneintrage 
werden aklualisierl. Sofern das verfinderte Dokument wei- 
terhin verfUgbar ist wird es entsprechend den Arbeilsschrit- 
ten der Aufbauphase in den Index eingefiigt 
[0041] Diese Verfahrensweise hat u. a. den Vorieil, dass 
ein Dokument - soiange es sich nicht verandert hat - nur 
einmal uber das Netz von einem anderen Server geladen 
werden muss, und dass es nichl lokal gespeichert werden 
muss. Darubcr hinaus ermoglicht diese Verfahrensweise 
auch Verweise auf Dokumente in den Index aufzunehmen, 
deren zugehSrige Dokumente selber noch nicht geladen und 
anaiysiert wurden. 

[0O42] Darfiber hinaus wird durch die partiellc Vbrausbe- 
rechnung der Rclevanzwerte die Bestimmung des Rclevanz- 
werts zum Anfragezeitpunkt minimiert. Mit unterschiedli- 
chen Gewichtung swerten fur Ankertexie in und auf Doku- 
mente, fiir Phrasen und fur unterschiedliche Textmarkierun- 
gen, ist die Relevanzbewertungsfunktion paramelrisierbar 
und somit flexibel konfiguricrbar. 

|0043] Die dritte Phase wird mil Anfragephase bezeich- 
net 

[0044] In der Anfragephase werden in Abhangigkeit vom 
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verwendelen Anfragetyp (einfache Anfragc, komplexe An- 
fragc, Boot'sche Anfragc oder Phrasenanfrage) aus dem In- 
dex die Dokumente erimltelt, die auf die Anfragc zutrefTen. 
Fur jedes gefundenc Dokument wird der eigentliche Rele- 
vanzwert aus den vorausberechneten Relevanzwertanteilen, 5 
der zum Anfragezeitpunkl vorliegenden Anzahl an Verwei- 
sen auf das Dokumem und der Gesamtanzahl der Doku- 
mente im Index zum Relevanzwert des Dokuments verrech- 
net 

|0045] Im Gegensatz zu dem mit Google vorgestellten to 
Ansaiz handelt es sich bei der im TeleFinder realisienen Lo- 
sung urn ein inkrententelles Verfahren, bei dem aktualisierte 
Dokumente di relet in den Index inlegriert werden und somit 
prinzipiell umgehend - nach einem als -flushen" bezeichne- 
ten Speichem des Indexes - zur Suche bereitgestellt werden. 15 
Im Vergleich zu dem Google Ansatz kann dadurch eine 
weiiaus habere Aktualitat des Indexes garantiert werden. 
Durch die direkte inkreraentelle Verarbeitung von neuen 
bzw. aktualisierten Dokumenten mUssen keine lokalen Kc- 
picn der Dokumente gespeichcrt werden, so dass der beno- 20 
ugte Plattenspeicherplatz drastisch reduziert werden kann. 
|0046j GegenOber dem Rankdex Verfahren verb alt sich 
TeleFinder wie eine konventionelle VoUtextsuchmaschine, 
sofem die gesuchten Begriffe nicht in Ankertexten auftre- 
ten. Das liegt darin begriindet, dass auch der Inhalt der Do- 2S 
kumenre indexiert wird. 

[00471 Zwar wird im erfindungsgemaBen Relevanzbewer- 
tungs verfahren wie auch im Lycos- Verfahren die PopularitSt 
der Ergebnisdokumente bewerteu jedoch geht die Bewer- 
uing nach der erfindungsgemaflen f iwung weiter als bei m 30 
Lycos- Verfahren, da neben der reinen Volltextindexierung, 
der BerUcksichtigung spezieller Dokumentenbestandteile 
und der Popularitat, wie bei Rankdex und Google auch die 
Ankertexte berUcksichtigt werden. 

(0048] Die Relevanzbewertungsfimktion ist darUber hin- 35 
aus parametrisiert, so dass die einzelnen bei der Bewertung 
berOcksichtigten Bcstandteile unterschiedlich gewichtet und 
die Bewertungsfunklion insgesamt beeinflusst werden kann 

Patent an spriichc 40 

1. Verfahren zur Relevanzbewertung bei der Indexie- 
rung von Hypertext-Dokumenten miuels Suchma- , 
schinc, bei dem Hypertext- Dokumente in der Indcxic- 
rungskomponentc der Suchmaschine ausgewertet wer- 45 
den, dadurch gekennzekhnet, dass es in eine Aufbau- 
phase, eine Akiualisierungsphase und eine Anfrage- 
phase unterteilt ist, 

dass in der Aufbauphase die Hypertexl-Dokumente in 
der Indexierungskotnponente gieichzeitig auf das M>r- 50 
handensein von Verweisen, speziell markierten und 
nichtmarkierten Textinhalten durchsucht werden, wo- 
bei 

a) bei der Identifizierung von Verweisen. fiir jede 
aus dicsen Verweisen bestimmbare Adresse ein S5 
neuer Dokumenteneintrag in der Indexierungs- 

. komponcnte angclcgt bzw. ein bereits vorhande- 
. ner Dokumenteneintrag aktualisiert wird, dass fUr 
die in den Verweisen verwendelen Begriffe der 
Ankertexte ebenfalls ein neuer Termcinirag in der 60 
Indexierungskomponcnte angelegt wird bzw. ein 
bereits vorhandener Termeintrag aktualisiert wird, 
und dass fiir jeden BegrifT des Ankertextes ein 
panieller Rclevanzwert vorausberechnet wird, 

b) bei der Identifizierung von speziell markierten 65 
Textinhalten, fUr jede ermittelte Markierung ein 
neuer Termeintrag in der Indexierungskompo- 
nente angelegi bzw. ein bereits angelegter Term- 
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eintrag aktualisiert wird, dass fUr jeden markierten 
BegrifT ein partieller Relevanzwert vorausberech- 
net wird, und 

c) bei der Identifizierung von nichl-markierten 
Textinformationen in einem auszuwertenden Do- 
kument ein neuer Termeintrag in der Indcxie- 
rungskomponente angelegt bzw. ein bereits zu der 
Textinformauon vorhandener Termeintrag aklua- 
hsiert wird, und dass fiir jeden Termeintrag ein 
partieller Relevanzwert vorausberechnet wird, 
dass in der Aktualisierungsphasc bereits erfasste und 
indexierte Dokumente, deren Inhalt sich geandert hat, 
automatisch aus dem Dokumentenindex geloschl wer- 
den, 

dass die Tfermeintrage zu diesen Dokumenten aktuali- 
siert werden, und dass die geanderten Dokumente so- 
fem sie weiterhin verfiigbar sind, noch einmal entspre- 
chend der Aufbauphase in der Indexierungskompo- 
nente erfassi werden, und 

dass in der Anfragephase auf die Anfrage eines Nutzers 
in Abhangigkeit vom Abfragetyp, wie einfache Frage, 
komplexe Frage, Boot'sche Anfrage bzw. Phrasenan- 
frage aus der Indexierungskomponcnte Angaben zu re- 
levanten Dokumenten ermittell werden, wobei fflr je- 
des ermittelte Dokument der eigentliche Relevanzwert 
aus den vorausherechneten Relevanzwert an teilen, der 
zum Anfragezeitpunkt vorliegenden Anzahl an Ver- 
weisen auf das ermittelte Dokument und der Gesamt- 
zahl der Dokumente in der Indexierungskomponenle 
berechnet wird, und dass die entsprechend ihrer Rele- 
vanzbewertung geordneten Angaben zu den Dokumen- 
ten zusammen mit Zusatzinformationen an den Nutzer 
ausgegeben werden. 
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